Парсим Википедию для задач NLP в 4 команды

Парсим Википедию для задач NLP в 4 команды Суть Оказывается для этого достаточно запуcтить всего лишь такой набор команд: git clone https://github.com/attardi/wikiextractor.git cd wikiextractor wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 python3 WikiExtractor.py -o ../data/wiki/ —no-templates —processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2 и потом немного отполировать скриптом для … Читать далее Парсим Википедию для задач NLP в 4 команды